16. 练习:一步动态特性(第 2 部分)
练习:一步动态特性
使用数学记法表示环境动态比较方便。在此部分,我们将介绍这一记法(可以用于任何强化学习任务),并使用回收机器人作为讲解示例。

在随机时间步 t,智能体环境互动变成一系列的状态、动作和奖励。
(S_0, A_0, R_1, S_1, A_1, \ldots, R_{t-1}, S_{t-1}, A_{t-1}, R_t, S_t, A_t)
当环境在时间步 t+1 对智能体做出响应时,它只考虑上一个时间步 (S_t, A_t) 的状态和动作。
尤其是,它不关心再上一个时间步呈现给智能体的状态。(换句话说,环境不考虑任何 { S_0, \ldots, S_{t-1} }。)
并且,它不考虑智能体在上个时间步之前采取的动作。(换句话说,环境不考虑任何 { A_0, \ldots, A_{t-1} }。)
此外,智能体的表现如何,或收集了多少奖励,对环境选择如何对智能体做出响应没有影响。(换句话说,环境不考虑任何 { R_0, \ldots, R_t } 。)
因此,我们可以通过指定以下设置完全定义环境如何决定状态和奖励
p(s',r|s,a) \doteq \mathbb{P}(S_{t+1}=s', R_{t+1}=r|S_t = s, A_t=a)
对于每个可能的 s', r, s, \text{and } a。这些条件概率用于指定环境的一步动态特性。
一个示例
我们回顾下 S_t = \text{high}、A_t = \text{search} 的情况。

然后,当环境在下个时间步对智能体做出响应时
下个时间步是电量很高的概率为 70%,奖励为 4。换句话说,p(\text{high}, 4|\text{high},\text{search}) = \mathbb{P}(S_{t+1}=\text{high}, R_{t+1}=4|S_{t} = \text{high}, A_{t}=\text{search}) = 0.7。
下个时间步是电量很低的概率为 30%,奖励为 4。换句话说,p(\text{low}, 4|\text{high},\text{search}) = \mathbb{P}(S_{t+1}=\text{low}, R_{t+1}=4|S_{t} = \text{high}, A_{t}=\text{search}) = 0.3。
问题 1
p(\text{high}, -3|\text{low},\text{search}) 是多少?
QUESTION:
输入正确的数字值。
SOLUTION:
NOTE: The solutions are expressed in RegEx pattern. Udacity uses these patterns to check the given answer
问题 2
p(\text{high}, 0|\text{low},\text{recharge}) 是多少?
QUESTION:
输入正确的数字值。
SOLUTION:
NOTE: The solutions are expressed in RegEx pattern. Udacity uses these patterns to check the given answer
问题 3 和 4
考虑以下概率:
- (1) p(\text{low}, 1|\text{low},\text{search})
- (2) p(\text{high}, 0|\text{low},\text{recharge})
- (3) p(\text{high}, 1|\text{low},\text{wait})
- (4) p(\text{high}, 1|\text{high},\text{wait})
- (5) p(\text{high}, 1|\text{high},\text{search})
SOLUTION:
- (1)
- (3)
- (5)
SOLUTION:
- (2)
- (4)